智能论文笔记

ColonFormer: An Efficient Transformer based Method for Colon Polyp Segmentation

Nguyen Thanh Duc , Nguyen Thi Oanh , Nguyen Thi Thuy , Tran Minh Triet , Dinh Viet Sang

分类：计算机视觉

2022-05-17

识别息肉对于在计算机辅助临床支持系统中自动分析内窥镜图像的自动分析具有挑战性。已经提出了基于卷积网络（CNN），变压器及其组合的模型，以分割息肉以有希望的结果。但是，这些方法在模拟息肉的局部外观方面存在局限性，或者在解码过程中缺乏用于空间依赖性的多层次特征。本文提出了一个新颖的网络，即结肠形式，以解决这些局限性。 Colonformer是一种编码器架构，能够在编码器和解码器分支上对远程语义信息进行建模。编码器是一种基于变压器的轻量级体系结构，用于在多尺度上建模全局语义关系。解码器是一种层次结构结构，旨在学习多层功能以丰富特征表示。此外，添加了一个新的Skip连接技术，以完善整体地图中的息肉对象的边界以进行精确分割。已经在五个流行的基准数据集上进行了广泛的实验，以进行息肉分割，包括Kvasir，CVC-Clinic DB，CVC-ColondB，CVC-T和Etis-Larib。实验结果表明，我们的结肠构造者在所有基准数据集上的表现优于其他最先进的方法。

translated by 谷歌翻译

Meta Learning for Few-Shot Medical Text Classification

Pankaj Sharma , Imran Qureshi , Minh Tran

分类：自然语言处理

2022-12-03

Medical professionals frequently work in a data constrained setting to provide insights across a unique demographic. A few medical observations, for instance, informs the diagnosis and treatment of a patient. This suggests a unique setting for meta-learning, a method to learn models quickly on new tasks, to provide insights unattainable by other methods. We investigate the use of meta-learning and robustness techniques on a broad corpus of benchmark text and medical data. To do this, we developed new data pipelines, combined language models with meta-learning approaches, and extended existing meta-learning algorithms to minimize worst case loss. We find that meta-learning on text is a suitable framework for text-based data, providing better data efficiency and comparable performance to few-shot language models and can be successfully applied to medical note data. Furthermore, meta-learning models coupled with DRO can improve worst case loss across disease codes.

translated by 谷歌翻译

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Teven Le Scao , Angela Fan , Christopher Akiki , Ellie Pavlick , Suzana Ilić , Daniel Hesslow , Roman Castagné , Alexandra Sasha Luccioni , François Yvon , Matthias Gallé

分类：自然语言处理

2022-11-09

Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.

translated by 谷歌翻译

UIT-ViCoV19QA: A Dataset for COVID-19 Community-based Question Answering on Vietnamese Language

Triet Minh Thai , Ngan Ha-Thao Chu , Anh Tuan Vo , Son T. Luu

分类：自然语言处理

2022-09-14

在过去的两年中，从2020年到2021年，Covid-19在包括越南在内的许多国家 /地区都破坏了预防疾病措施，并对人类生活和社会社区的各个方面产生了负面影响。此外，社区中的误导性信息和有关大流行的虚假新闻也是严重的情况。因此，我们提出了第一个基于越南社区的问题答复数据集，用于开发COVID-19的问题答案系统，称为UIT-VICOV19QA。该数据集包括从可信赖的医疗来源收集的4,500对提问，至少有一个答案，每个问题最多有四个独特的解释答案。除数据集外，我们还建立了各种深度学习模型作为基线，以评估数据集的质量，并通过BLEU，Meteor和Rouge-l等常用指标来进一步研究基准结果，以进行进一步的研究。我们还说明了对这些模型进行多个解释答案的积极影响，尤其是在变压器上 - 研究领域的主要结构。

translated by 谷歌翻译

Video Dialog as Conversation about Objects Living in Space-Time

Hoang-Anh Pham , Thao Minh Le , Vuong Le , Tu Minh Phuong , Truyen Tran

分类：计算机视觉 | 机器学习

2022-07-08

能够创建一个可以与人类就他们所观看的东西进行有意义的对话的系统，这将是一项技术壮举。针对该目标的设置作为视频对话任务表示，要求系统在正在进行的对话框中对问题产生自然话语。该任务带来了伟大的视觉，语言和推理挑战，如果没有适当的表示方案，可以轻松克服支持高级推理的视频和对话。为了应对这些挑战，我们提出了一个新的以对象为中心的视频对话框架，该框架支持神经推理称为成本 - 代表时空中有关对象的对话。在这里，视频中的动态时空视觉内容首先解析为对象轨迹。鉴于此视频抽象，成本维护并跟踪与对象相关的对话框状态，这些对话框在收到新问题后会更新。对象相互作用是动态和条件地推断出每个问题的，并且它们是它们之间关系推理的基础。成本还保留了以前答案的历史记录，这允许检索相关的以对象为中心的信息以丰富答案形成过程。然后，语言生产以逐步进行，进入当前话语，现有对话和当前问题的背景。我们评估了DSTC7和DSTC8基准的成本，证明了其对最先进的竞争力。

translated by 谷歌翻译

Novel projection schemes for graph-based Light Field coding

Bach Gia Nguyen , Chanh Minh Tran , Tho Nguyen Duc , Tan Xuan Phan , Kamioka Eiji

分类：计算机视觉

2022-06-09

在光场压缩中，基于图的编码功能强大，可以利用沿着不规则形状的信号冗余并获得良好的能量压实。然而，除了高度复杂性到处理高维图外，它们的图形构造方法对观点之间的差异信息的准确性非常敏感。在计算机软件生成的现实世界光场或合成光场中，由于渐晕效果和两种类型的光场视图之间的视图之间的巨大差异，将视差信息用于超射线投影可能会遭受不准确性。本文介绍了两种新型投影方案，导致差异信息的错误较小，其中一个投影方案还可以显着降低编码器和解码器的时间计算。实验结果表明，与原始投影方案和基于HEVC或基于JPEG PLENO的编码方法相比，使用这些建议可以大大增强超级像素的投影质量，以及率延伸性能。

translated by 谷歌翻译

3DConvCaps: 3DUnet with Convolutional Capsule Encoder for Medical Image Segmentation

Minh Tran , Viet-Khoa Vo-Ho , Ngan T. H. Le

分类：计算机视觉

2022-05-19

卷积神经网络（CNN）已在医学图像分割方面取得了有希望的结果。但是，CNN需要大量的培训数据，并且无法处理姿势和对象的变形。此外，它们的合并层倾向于丢弃重要信息，例如位置以及CNN对旋转和仿射转化敏感。胶囊网络是一种最新的新体系结构，通过用动态路由和卷积步伐替换池层来实现零件整体表示学习的更好的鲁棒性，这在流行任务（例如数字分类和对象细分）上显示了潜在的结果。在本文中，我们提出了一个带有卷积胶囊编码器（称为3DConvCaps）的3D编码器网络，以学习具有卷积层的低级特征（短距离注意），同时用胶囊建模更高级别的特征（远程依赖）层。我们在包括ISEG-2017，Hippocampus和Cardiac在内的多个数据集上进行的实验表明，我们的3D 3DConvcaps网络的表现非常优于先前的胶囊网络和3D-UNET。我们进一步进行了在卷积层和胶囊层的各种配置下在合同和扩展路径的各种配置下进行网络效率和分割性能的消融研究。

translated by 谷歌翻译

ViNMT: Neural Machine Translation Tookit

Nguyen Hoang Quan , Nguyen Thanh Dat , Nguyen Hoang Minh Cong , Nguyen Van Vinh , Ngo Thi Vinh , Nguyen Phuong Thai , Tran Hong Viet

分类：自然语言处理 | 机器学习

2021-12-31

我们为神经机翻译（NMT）提供了一个开源工具包。新工具包主要基于拱形变压器（Vaswani等，2017）以及下面详述的许多其他改进，以便创建一个独立的，易于使用，一致和全面的各个领域的机器翻译任务框架。它是为了支持双语和多语言翻译任务的工具，从构建各个语料库的模型开始推断新的预测或将模型打包给提供功能的JIT格式。

translated by 谷歌翻译

Simultaneous face detection and 360 degree headpose estimation

Hoang Nguyen Viet , Linh Nguyen Viet , Tuan Nguyen Dinh , Duc Tran Minh , Long Tran Quoc

分类：计算机视觉

2021-11-23

随着人类生活中的许多实际应用，包括制造监控摄像机，分析和加工客户行为，许多研究人员都注明了对数字图像的面部检测和头部姿势估计。大量提出的深度学习模型具有最先进的准确性，如YOLO，SSD，MTCNN，解决了面部检测或HOPENET的问题，FSA-NET，用于头部姿势估计问题的速度。根据许多最先进的方法，该任务的管道由两部分组成，从面部检测到头部姿势估计。这两个步骤完全独立，不共享信息。这使得模型在设置中清除但不利用每个模型中提取的大部分特色资源。在本文中，我们提出了多任务净模型，具有利用从面部检测模型提取的特征的动机，将它们与头部姿势估计分支共享以提高精度。此外，随着各种数据，表示面部的欧拉角域大，我们的模型可以预测360欧拉角域的结果。应用多任务学习方法，多任务净模型可以同时预测人头的位置和方向。为了提高预测模型的头部方向的能力，我们将人脸从欧拉角呈现到旋转矩阵的载体。

translated by 谷歌翻译

UET-Headpose: A sensor-based top-view head pose dataset

Linh Nguyen Viet , Tuan Nguyen Dinh , Hoang Nguyen Viet , Duc Tran Minh , Long Tran Quoc

分类：计算机视觉 | 人工智能

2021-11-13

头部姿势估计是一个具有挑战性的任务，旨在解决与预测三维向量相关的问题，这为人机互动或客户行为中的许多应用程序提供服务。以前的研究提出了一些用于收集头部姿势数据的精确方法。但这些方法需要昂贵的设备，如深度摄像机或复杂的实验室环境设置。在这项研究中，我们引入了一种新的方法，以有效的成本和易于设置，以收集头部姿势图像，即UET-HEADBETS数据集，具有顶视图头姿势数据。该方法使用绝对方向传感器而不是深度摄像机快速设置，但仍然可以确保良好的效果。通过实验，我们的数据集已显示其分发和可用数据集之间的差异，如CMU Panoptic DataSet \ Cite {CMU}。除了使用UET符号数据集和其他头部姿势数据集外，我们还介绍了称为FSANET的全范围模型，这显着优于UET-HEALPETS数据集的头部姿势估计结果，尤其是在顶视图上。此外，该模型非常重量轻，占用小尺寸图像。

translated by 谷歌翻译